Comme prévu, le supercalculateur Jean Zay gagne en puissance. D'ici quelques semaines, il va passer à 125,9 PFlop/s avec l’ajout de 14 racks de calcul BullSequana XH3000 d’Eviden, pour un total de 728 CPU Intel Sapphire Rapids et 1 456 GPU NVIDIA H100. On en profite pour détailler la configuration complète de Jean Zay.
Le supercalculateur Jean Zay a été acheté par le ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation via le GENCI (Grand équipement national de calcul intensif). Le contrat a été signé avec Hewlett-Packard Enterprise le 8 janvier 2019. Il est installé à l'IDRIS, le centre national de calcul du CNRS sur le plateau de Saclay. Il a depuis été amélioré à plusieurs reprises.
16PFlop/s au lancement, puis 28 et 36,85 PFlop/s
À son lancement au premier semestre 2019, il avait une puissance crête de 15,9 PFlop/s. Une première extension a été mise en place durant l’été 2021 pour passer 28 PFlop/s et une seconde en juin 2022 pour atteindre 36,85 petaflops. Au classement des 500 plus gros supercalculateurs, il est 167e avec une puissance de 4,48 petaflops mais cela ne concerne qu'une seule des « partitions » du supercalculateur (il était au classement de juin 2019).
L’année dernière à VivaTech, Emmanuel Macron annonçait « investir 50 millions pour quadrupler les capacités du supercalculateur Jean Zay ». De son côté, la Direction générale des entreprises (DGE) annonçait dans un rapport de 2023 « la multiplication par 10 des capacités du supercalculateur Jean Zay, pouvant entraîner à terme 4 à 5 grands modèles de langage par an ». Dans les deux cas, aucune précision n’était apporté sur la méthode de calcul.
Le GENCI rappelle que pour cette amélioration du supercalculateur, 40 millions d’euros lui ont été attribués. « Cette subvention exceptionnelle s’accompagne également de 10 millions d’euros pour renforcer et prolonger les ressources humaines du Programme national de recherche en intelligence artificielle (PNRIA) et accompagner les communautés IA ».
Quoi qu’il en soit, les travaux ont commencé au début de l’année, mais les chercheurs ont été prévenus au dernier moment. La communauté scientifique a ainsi « été prise de court par cette opération qui rend caduc le travail de planification à long terme en cours », regrettait Julie Deshayes, directrice de recherche du CNRS et chercheuse en océanographie physique.
- Supercalculateurs (exascale), IA, régulation, métavers : Emmanuel Macron tire tous azimuts à VivaTech
- Le supercalculateur Jean-Zay en pause pour mise à jour, les chercheurs bloqués
Commentaires (18)
#1
#2
Qu'est-ce qu'une partition ?
Quelle est l'architecture matérielle et logicielle d'un tel calculateur ?
Je ne sais pas si ça a fait l'objet d'articles sur NXI ou IH, mai il n'y a pas de liens vers des articles qui expliquent ça.
#2.1
Pour l’infra logicielle, Idris donne des détails par ici (en fin de page) : http://www.idris.fr/jean-zay/cpu/jean-zay-cpu-hw.html#gpu_p13
#2.4
#2.5
#2.6
#2.2
#2.3
Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.
Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée.
Cependant, en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre, qui sera bien souvent unitairement utilisée.
Historique des modifications :
Posté le 29/03/2024 à 16h38
Et la raison d'être des partitions logiques est d'obtenir in fine une homogénéité des ressources/capacités de traitement & stockage.
Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.
Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée, mais en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre.
Posté le 29/03/2024 à 16h40
Et la raison d'être des partitions logiques est d'obtenir in fine une homogénéité des ressources/capacités de traitement & stockage.
Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.
Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée.
Cependant, en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre.
#3
#3.1
#3.2
#3.3
#3.4
ok je sors ---> []
#4
#4.1
#4.2
#5
En pratique c'est plus compliqué que ça parce que le Top 500 ne permet pas de mélanger CPU et GPU et qu'il est de toute façon très difficile de faire tourner le bench de façon efficace sur des partitions non homogènes.
#6